Lista de Produtos de IA

Lista de Produtos de IA

Pesquise as tendências globais de produtos de IA

Pesquise informações globais de IA e descubra novas oportunidades de IA

Informação de Notícias
Aplicações de Produtos
Casos de Monetização
Tutoriais de IA

Tipo :

Informação de Notícias
Aplicações de Produtos
Casos de Monetização
Tutoriais de IA

2023-11-02 15:21:41.AIbase

Grupo Ant Financial lança benchmark de avaliação de modelos grandes para a área de DevOps

O Grupo Ant Financial, em conjunto com a Universidade de Pequim, lançou um benchmark de avaliação de modelos de linguagem grandes para a área de DevOps. O benchmark inclui questões de múltipla escolha em 8 categorias: planejamento, codificação, construção, teste e lançamento, entre outras. São 4850 questões no total. O benchmark também faz uma subdivisão para tarefas AIOps. Os resultados da avaliação mostram que as pontuações dos modelos são bastante próximas.

2023-09-25 09:54:21.AIbase

Investigação sobre a desordem na avaliação de modelos grandes: o tamanho do parâmetro não é tudo

A quantidade de parâmetros não é o único critério para avaliar grandes modelos; diferentes conjuntos de avaliação levam a grandes diferenças na classificação; o aumento da proporção de questões subjetivas também afeta a classificação; a imparcialidade da avaliação é facilmente questionada; Organizações de avaliação de terceiros, como OpenCompass e FlagEval, estão começando a receber atenção; O meio acadêmico acredita que também devem ser considerados a robustez e a segurança do modelo, entre outras dimensões; Um método de avaliação verdadeiramente abrangente e eficaz ainda está em exploração.